从搜狗的语音技术发展史中,我们来看平台技术是如何落地的
- shenzhenware -
提起智能语音,大家或多或少会想到苹果的 Siri,毕竟整个行业由它牵头带动的,包括后来亚马逊的 Alexa,微软 Cortana,Google Assistant 等,各个巨头将智能语音视为了一块必争之地,业界更是将语音定义为下一个人机交互的新形式。
在国内,除了百度、科大讯飞以及一些初创公司,我们似乎很少会提起搜狗这家同样专注于人工智能语音的公司,甚至有人认为智能语音是搜狗向 AI 转型的一大战略。为此,搜狗 CEO 王小川曾强调,搜狗虽然以搜索起家,但事实上它就是一家 AI 公司,并一直致力于让搜索引擎变得更聪明,其中就包括语音技术。
搜狗的语音技术研究始于 2012 年,曾推出语音助手应用
从 2012 年开始,搜狗就着手语音技术的研究,并在一年多之后完成深度学习技术的研发和上线,经过一段时间的测试、准确率对比后,最终在 2013 年 6 月,接入搜狗包括输入法、地图在内的全线产品,代替原本所采用第三方公司的技术。
同时在这个过程中,搜狗于推出了搜狗语音助手,得益于多年来积累的搜索能力,搜狗语音助手的技术在短时间内做到了中文业内的领先。但它也面临着与 Siri 等语音助手相类似的窘境,在手机端上提供的交互体验并不能让用户产生足够的依赖性,最终导致产品的使用率并不高。
此后,搜狗语音团队则没有对手机语音助手做继续的研发和推进,但对智能语音的研究依旧持续着,并将目标聚焦在老本行——搜索上。他们思考着如何利用智能语音让搜索变得更有效率、且往「更智能化」的方向走。到目前为止,搜狗语音团队每年都会将自家的技术拿到业界中进行对比测评,以了解自身在行业中所处的实际位置。
基于前期技术的积累,敲定搜狗人工智能未来的方向:自然交互 + 知识计算
2016 年 8 月,沉寂许久的搜狗在智能语音中再次有了新动作,除了实现将语音转化成文字的功能,还发布了语音交互引擎「知音」。同时,搜狗 CTO 杨洪涛在发布会中首次公布搜狗人工智能未来 8 年工作的主要方向:自然交互 + 知识计算,其中,自然交互指的是让机器能够在交互中更懂人,知识计算即将网络中的海量信息提取出来,并做进一步的运算、推理,辅助用户做更好的决策。
这套由语音识别、语义理解、知识图谱等技术梳理成一套成体系的「知音」交互引擎,主要是在加固此前搜狗在这方面的技术、产品积累,并让其朝高效、更智能化的方向走。
基于深度学习平台搭建识别引擎,提高语音识别效率、实现实时翻译功能
发布「知音搜索」后,搜狗则开始基于已有的深度学习平台搭建自己的识别引擎,一方面依据人类说话的生物特征将每一个音节分为独立的帧,提高对静音的识别,进一步提高语音识别(将语音转化为文本)的效率;另一方面,在语音识别的框架下建立声学模型,根据人在发音时声音信号和录音信号波形的对比,实现录音和文字之间的映射。
其中,在语音实时翻译技术上,搜狗采用基于神经网络的机器翻译技术,以文本断句为桥梁,做到用户在一直说话的同时,系统将输入的语音进行区分、翻译,将中、英文短语之间的映射关系建立起来,利用语音模型将词序或语序进行调整,实现语音翻译同传。
搜狗 CEO 王小川现场展示搜狗语音的实时翻译功能
除了技术框架的搭建,大量的训练数据是确保语音识别准确率的基础,因率先在中文手机输入法中抢占先机,以及大量搜索用户的基础,让搜狗的语音识别取得了良好的效果,也成为语音实时翻译的重要基础。据搜狗团队的介绍,搜狗语音识别的准确率已达到 97% 。而在当时,单是搜狗语音输入法每日的请求次数就已经超过 1.8 亿次,也就是大约 16 万小时的语料规模。
推进语音技术在产品中的落地,并非做简单的技术提供商
随着人工智能技术得到一定的进展,搜狗也逐渐考虑实现技术在产品中落地的事情。在这一战略过程中,搜狗并不打算做一个纯粹的技术出售商,游离于产品之外做技术的整合和贡献,而是将产品与技术紧密联系在一起,既做技术又做产品,或者在与他人合作时,依靠自己的人工智能算法和别人的数据去对接。
对此,搜狗 CTO 杨洪涛曾表示,「如果只是开放 SDK 接口供开发者嵌入和使用,这样双方就不能进行良好的互动,最终的产品体验一定不会好,而好的产品体验需要两个团队共同的紧密结合。」
在去年 12 月份,搜狗宣布与四维图新、飞歌展开合作,三方共同研发智能车联网软硬件解决方案,推出飞歌最新的 G8Ⅱ后装智能车机。其中,搜狗语音提供的车载语音系统已在车载场景下做了专项优化,是基于搜狗语音交互引擎「知音」面向车载方向的升级。同时,其与搜狗语音地图进行整合后,用户可通过自然语音交互的方式向导航系统输入目的地。
在今年 3 月份的小米新品发布会上,小米发布了与搜狗语音深度结合的智能语音电视——小米电视 4A,依靠搜狗的语义理解技术及其在小米 4A 使用场景下的优化,用户能够在向电视提出复合指令时得到精准的反馈结果。另外,搜狗语音和小米还一起建立了同步上线机制,在小米电视内容上线更新的同时,搜狗语音都将快速跟进优化,为用户提供良好的交互体验。
小米智能语音电视发布会
前不久,会议平板厂商视源股份发布首款智能语音平板 MAXHUB,其中就整合了搜狗的语音技术。在使用这款会议平板的过程中,用户用自然的语音指令即可调动语音助手执行相应的任务,提高办公及会议效率。
语音交互的刚需在于驾车、客厅、户外这几个方向,产品本身也必须是「刚需」
就跟当初放弃搜狗语音助手应用一样的道理,搜狗语音负责人王砚峰认为,技术应该用在能够真正解决用户实际问题的方向上,躺在手机上的语音助手并不能帮人们解决实际的需求。在物联网和车联网时代,更自然的人机交互方式已成为一个趋势,而语音助手则需要找到它真正的用武之地。
王砚峰进一步表示,语音交互的刚需存在于驾车、客厅、户外等不方便使用键盘打字的场景中,另外,产品自身也应该是刚需。如目前的机器人并不足以解决用户的实际需求,因此搜狗也没有把它作为一个跟进的方向,而是希望继续在以上三个场景中将语音交互的体验做得更好、更深,给用户带来实际价值。
目前,搜狗一方面通过产品将语音技术更多的落地到用户端,另一方面则深耕技术,投入到对前沿技术的研发中,如与清华大学联合成立「清华大学天工智能计算研究院」
从以上来看,我们没有在搜狗语音身上看到「大杂烩」形式的产业布局,而是聚焦在垂直领域,寻找并切入刚需市场,对技术进行深化以及贴近产品式的研究,方向是如此的坚决且明朗。(本文作者:Jes@深圳湾)■
· ● 近期热点 ● ·
4 月 15 日(本周六),深圳湾(公众号 ID:shenzhenware)将举办「语见 · 语音智能峰会 | WARE 2017」,本届峰会,将聚焦语音智能,邀请行业领军企业、以及行业意见领袖,分享关于语音智能的相关平台技术和应用案例,通过会议的交流互动,以及会议主题的传播,帮助人们更好的预见未来。
届时,搜狗公司桌面事业部高级总监,桌面研究部和语音交互技术中心负责人王砚峰将出席本次峰会,发表『从语音到语言』的主题演讲。
点击底部「阅读原文」,进入峰会报名页面,可了解峰会详情。
● ● ●
深圳湾(公众号 ID:shenzhenware)将持续关注物联网、人工智能、机器人、无人机、智能驾驶、智能家居等领域的新锐产品和初创团队,欢迎联系我们。微信私人客服:小炫(ID:warexx)。
● ● ●